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Проблема распознавания длительностей 
как ритмических единиц 
музыкального произведения 


В статье рассматривается задача распознавания длительностей как ритмических единиц музыкального 
произведения с точки зрения классической теории распознавания образов, выделяются основные 
сложности, которые появляются в процессе решения этой задачи, предлагаются возможные подходы 
к преодолению этих сложностей. 


В настоящее время задача распознавания фонограмм музыкальных произведений 
(её также можно называть задачей распознавания звучащей музыки) стала актуаль- 
ной благодаря развитию сети Интернет, мобильных технологий и робототехники. 
Задачу эту можно разбить на 3 подзадачи: 
— сегментация звукового сигнала по признаку однородности частотного состава и 
распознавание выделенных сегментов; 
— распознавание длительностей сегментов как ритмических единиц; 
— определение общих ритмических характеристик музыкального произведения: раз- 
мера и величины затакта. 

Здесь следует отметить, что каждая из этих подзадач находит своё применение 
в разных и зачастую совершенно неожиданных областях. Так, в Интернете сущест- 
вует большое количество музыкальных поисковых сервисов, однако большинство из 
них осуществляют поиск музыкальных произведений по некоторой символьной 
информации, полученной от пользователя, и речь в данном случае идёт скорее о пра- 
вильной организации и постоянном обновлении сетевых баз данных, связанных с 
музыкальными произведениями, чем о некотором процессе распознавания. В то же 
время, встречаются нетривиальные реализации перевода запроса пользователя из 
естественной для него формы (напев, простукивание ритма) в некоторую проме- 
жугочную форму. Наиболее продвинутым решением в данной области является проект 
МизсВгаш7т, использующий запатентованный алгоритм ТКМ фирмы КежаЫе, при- 
меняемый для организации акустических отпечатков. В сфере мобильных устройств 
также имеются похожие решения. Так, компания ЗопуЕт1с$5оп предоставляет в своих 
устройствах функцию ТгасКТО, которая позволяет по записанному фрагменту музы- 
кального произведения осуществить его идентификацию в сетевой базе данных. 
Компания Моюго|а также заявляет в своих устройствах функцию ЗопеТО (аналог 
ТгаскТО), однако обнаружить работающую реализацию данной технологии в при- 
сутствующих на рынке моделях телефонов этой компании не удалось. Здесь уместно 
отметить, что во всех рассмотренных случаях распознавание музыкального произве- 
дения в смысле перевода его в символьную форму представления (например, нотный 
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текст) не производится. Вместо этого выполняется выделение в произведении неко- 
торых характерных признаков (например, ритмических характеристик) и дальнейший 
поиск производится уже по ним. 

Поиск решения задачи определения ритмической структуры музыкального про- 
изведения активно ведётся в робототехнике, а результаты обкатываются на различных 
музицирующих и танцующих роботах, регулярно появляющихся на международных 
выставках в исполнении ведущих фирм, специализирующихся в области робото- 
техники и электроники. 

В то же время задача распознавания фонограмм музыкальных произведений в 
смысле перевода их в нотный текст на сегодняшний день не решена. Среди разра- 
ботчиков наконец-то стало появляться понимание того, что по своей сложности эта 
задача приближается к задаче распознавания речи и является, безусловно, задачей 
искусственного интеллекта. 

Некоторые варианты решений для задачи сегментации звукового сигнала по 
признаку однородности частотного состава приведены в [1-3]. 

Целью же данной работы является обзор возможных проблем, встающих при 
попытке решения задачи распознавания длительностей как ритмических единиц 
музыкального произведения и формализация этой задачи с позиций классической 
теории распознавания образов. 

Эту задачу можно сформулировать так: для заданного набора временных продол- 
жительностей звуков определить соответствующие длительности (в смысле ритмических 
единиц музыкального произведения) с учётом заданных априорно или определённых 
в процессе обработки общих ритмических характеристик музыкального произведения 
(темп, размер и затакт). Причём на данном этапе общие ритмические характеристики счи- 
таются постоянными величинами для рассматриваемого музыкального произведения. 

Следует отметить, что подробное рассмотрение задачи автоматического опре- 
деления общих ритмических характеристик музыкального произведения и методов 
её решения выходит за рамки данной статьи. 


Постановка задачи 


Очевидно, целесообразно попытаться формализовать рассматриваемую задачу 
с точки зрения классической теории распознавания образов. Это требует от нас указания 
признаков распознавания, количества распознаваемых системой классов, законов рас- 
пределения признаков внутри каждого из классов (априори ясно, что признаки будут 
вероятностными). 

Признак распознавания для данной задачи есть только один — это временная 
продолжительность звука, длительность которого необходимо определить. С одной 
стороны, наличие единственного признака распознавания избавляет разработчиков 
от необходимости оптимизации системы признаков. Однако известно [4], что эффек- 
тивность системы распознавания увеличивается прямо пропорционально количеству 
используемых признаков. Очевидно, что эффективность рассматриваемой системы будет 
всецело зависеть от степени перекрытия классов в пространстве единственного 
имеющегося признака. 

Количество различаемых классов в рамках данной задачи можно определить 
исходя из следующих соображений: 

1) в большинстве музыкальных произведений используются длительности от 
целой до 64-й; 
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2) наряду со стандартными длительностями часто используются длительности 
увеличенной продолжительности — длительности с точкой и длительности с двойной 
точкой; 

3) помимо вышеперечисленных длительностей также широко используются 
кортежи длительностей: триоли, пентоли, септоли и т.д.; 

4) в некоторых ситуациях используются альтернативные кортежи -— дуоли, 
квадроли, секстоли и т.д. 

Если распознавать лишь указанные длительности, то количество классов ока- 
зывается равным 

7. (1+2-+3+3)= 63. 

Для того чтобы оценить степень перекрытия классов, необходимо, в первую 
очередь, представить эти классы в пространстве признаков. Между основными клас- 
сами длительностей в музыке устанавливаются соотношения, показанные в табл. 1. 


Таблица 1 — Соотношение между временными продолжительностями некоторых 


рассматриваемых длительностей 
ы Один элемент 
Базовая длительность Длительность С ТОЧКОИ > 
Название базового кортежа триолеи 
И 1 в, й в, 1 =, 1 
12 
Е 64 6 96 6.585 Е 5.415 
п 64 
и 32 5 48 5.585 — 4,415 
Ч 
ра 16 4 24 4.585 = 3,415 
В 16 
не 8 3 12 3.585 = 2.415 
ИСтВавиЕтАя 4 2 6 2.585 - 1,415 
т 
ее й 1 3 1.585 - 0,415 
Ш 
Е 1 0 2 0.585 р _ 0,585 
четвёртая 2 з 


Однако иметь дело с таким расположением классов в пространстве признаков 
неудобно. Гораздо лучше было бы, если бы основные классы в пространстве признаков 
были расположены более или менее равномерно. Этого эффекта для основных классов 
длительностей можно достичь, предварительно прологарифмировав по основанию 2 
значения временных продолжительностей длительностей. 

При этом для длительностей с точкой вместо положения точно посередине 
между центрами классов основных длительностей получился сдвиг, соответствующий 


102, (1,5) = 0,585. 


Таким образом, на логарифмической шкале длительности с точкой оказываются не- 
значительно смещёнными в сторону большей длительности. 

И здесь появляются первые проблемы: к примеру, центры классов триольных 
длительностей на логарифмированной шкале оказываются очень близкими к дли- 
тельностям с точкой. Та же картина наблюдается и в случаях с другими «кортежными» 
длительностями. 
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В связи с рассмотренной ситуацией расположения центров классов длительнос- 
тей на логарифмической шкале признака распознавания, ключевую роль начинают 
играть законы распределения признака распознавания внутри введенных классов. На 
сегодняшний день объём проведенных исследований не позволяет установить экспе- 
риментальным путём эти законы, однако уже сейчас можно сказать, что степень 
перекрытия классов нарастает по мере добавления различных «дополнительных» 
классов длительностей. Так, если базовые классы практически не пересекаются, то при 
добавлении классов, соответствующих длительностям с точкой, пересечение становится 
уже достаточно значительным, чтобы порождать регулярные ошибки распознавания. При 
добавлении же классов, соответствующих «кортежным» длительностям, их становится 
очень трудно отличать от длительностей с точкой вследствие сильного перекрытия и 
близкого расположения их центров в пространстве признака распознавания. 

Причин такого сильного перекрытия классов несколько, носящих как объективный, 
так и субъективных характер. В случае работы со звуковым файлом (что подра- 
зумевает его предварительную сегментацию по признаку однородности частотного 
состава) границы оказываются определёнными с некоторой ошибкой вне зависимости 
от применяемого метода сегментации. Поскольку эти ошибки зависят от величин 
используемого окна сегментации, фазового сдвига и реального периода основного 
тона сигнала, то величина их является случайной. Далее, априори ясно, что любые 
две «одинаковые» длительности, сыгранные музыкантом, при точном анализе будут 
отличаться друг от друга. Кроме того, в случае анализа записи живого исполнителя, 
временная продолжительность длительностей одного класса может изменяться в 
зависимости от эмоционального состояния исполнителя и семантической нагрузки, 
которую он вкладывает в воспроизведение. Проведённые исследования показали, 
что разброс внутриклассовых значений, порождаемый каждым из этих источников в 
отдельности, приводит к тому, что при полном наборе классов с достаточной точ- 
ностью распознаются только основные классы длительностей. 

Вполне возможно, что, если бы удалось определить закон распределения, с уче- 
том каждого из возможных источников ошибок, удалось бы построить достаточно 
точную систему распознавания длительностей без обучения, однако возможен и 
другой подход к решению данной задачи. 

Известно [4], что эффективность классификатора возрастает при уменьшении 
количества распознаваемых классов. Анализируя музыкальные произведения, можно 
заметить, что, как правило, в них используется только часть рассмотренных ранее клас- 
сов. И в то же время, для каждого музыкального произведения этот набор классов будет 
отличаться. Получается, что в данной ситуации количество классов, которые должна 
распознавать система, не известно, хотя оно и значительно меньше, чем в рассмот- 
ренном выше случае системы без обучения. Такая ситуация характерна для систем 
распознавания с обучением без учителя. В то же время, характер ошибок меняется от 
фонограммы к фонограмме, что не позволяет использовать данные обучения на 
одной фонограмме для распознавания другой. Кроме того, следует отметить тот факт, 
что от фонограммы к фонограмме будет меняться положение центров классов в 
пространстве признаков, что связано, в основном, с отличиями в темпах. 

Одним из наиболее привлекательных решений в данной ситуации представ- 
ляется следующее: необходимо выполнить обучение классификатора без учителя, 
используя все длительности обрабатываемого музыкального произведения в качестве 
обучающей выборки. По результатам этого обучения можно будет определить 
положение центров классов длительностей, а затем — выполнить распознавание 
объектов этой же выборки. В результате обучения классификатора без учителя будет 
получен только набор кластеров, по которым будут распределены объекты обучаю- 
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щей выборки. Поэтому для определения положения центров классов в пространстве 
признаков системе необходимо будет предоставлять дополнительную априорную инфор- 
мацию о соответствии хотя бы одного из полученных кластеров реальному классу 
длительностей. Учитывая имеющиеся соотношения между классами длительностей, 
такой информации должно быть достаточно для восстановления соответствия в 
случае всех полученных в результате обучения кластеров. 

Учитывая отсутствие информации о законах распределения признаков распозна- 
вания внутри каждого из классов длительностей, до проведения необходимого исследо- 
вания можно предположить, что вероятность принадлежности к некоторому классу 
равна 1, если значение признака распознавания совпадает с центром класса, равно- 
мерно убывает с удалением от центра класса, и равна 0, если значение признака 
распознавания совпадает с центром соседнего класса, причём отсутствие сведений 
об априорной вероятности и платах за ошибки распознавания приводит к тому, что 
граница между классами будет располагаться как раз посередине между центрами 
соседних классов. График изменения вероятности отнесения к двум соседним клас- 
сам представлен на рис. 1. 


0 р 


Рисунок 1 — Изменение вероятности отнесения объекта к двум соседним классам 
в соответствии с допущением, принятым в данной работе 


Для удобства дальнейшей обработки параметр, характеризующий правиль- 
ность принятого классификатором решения, вероятность ошибки распознавания в 
классической теории распознавания [5], представляется целесообразным модифицировать 
так, чтобы он отражал не только величину ошибки, но и её отклонение. Эту величину, 
конечно, нельзя будет называть вероятностью, поскольку её значение будет находиться 
в интервале [- 1,1]. В дальнейшем в тексте данной статьи описанная выше величина 
будет называться мерой ошибки распознавания и будет обозначаться как р. 


Распознавание в соответствии с описанными выше законами распределения 
длительностей производится путём определения наиболее близкого к рассматривае- 
мому образу центра класса. Результат распознавания целесообразнее всего выразить 
двойкой вида 

К= (4,2), (1) 
где 4 - номер распознанного класса длительностей. 

Как показали проведенные исследования, построенный подобным образом 


классификатор длительностей может ошибаться только в пределах соседних классов, 
что позволяет ввести альтернативное решение следующим образом: 


(1-11-), если В <0 


= : 2 
(4+1,—1+р), если р>0 © 


2 
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После распознавания зачастую оказывается необходимым выполнение коррекции 
полученных результатов. Данная коррекция будет заключаться в выборе для каждого 
объекта между полученным (1) и альтернативным (2) решением и может быть осно- 
вана на следующих принципах: 

1) минимизации количества синкоп в музыкальном произведении; 

2) минимизации суммарной меры ошибки распознавания внутри каждого такта 
распознанной последовательности длительностей с учётом 1). 

На основании изложенных в данной статье соображений авторами планируется 
разработка алгоритмов обучаемого классификатора для определения центров классов, 
классификатора без обучения для предварительного распознавания длительностей и 
апостериорного корректора результатов распознавания. Результаты работ по этому 
направлению будут приведены в последующих статьях по данной тематике. 


Выводы 


В статье рассмотрена задача распознавания длительностей как ритмических 
единиц музыкального произведения с точки зрения классической теории распознавания 
образов, выделены основные проблемы, которые появляются в процессе решения этой 
задачи, предложены возможные подходы к преодолению этих проблем. Основные 
сложности в работе с данной предметной областью, как показано в статье, связаны с 
наличием единственного признака распознавания и сильным перекрытием классов в 
случае наиболее общей постановки задачи. Для преодоления этих сложностей пред- 
лагается использовать двухпроходный классификатор, первый проход которого 
предназначен для определения центров классов для распознаваемого музыкального 
произведения, а второй — собственно для распознавания на основании полученных в 
результате первого прохода данных, причём обучающая выборка для первого и клас- 
сифицируемая выборка для второго прохода совпадают. В дальнейшем на основании 
изложенных в статье соображений авторами планируется разработка алгоритмов авто- 
матического распознавания длительностей и программных решений на их основе. 
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Проблема розшзнавання тривалостей як ритм!чних одиниць музичного твору 
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процес! виритення цього завдання, пропонуються можлив! шдходи до розв’язання цих складностей. 
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